我有一份公司及其子公司的名单,数据如下:
CompanyName Employees
Microsoft China 1
Microsoft India 1
Microsoft Europe 1
Apple Inc 1
Apple Data Inc 1
Apple Customer Service Inc 1
Data Corp 1
Data SHCH 1
Data India 1
我有一些包含文本的数据,我想尝试从文本中提取公司名称。数据如下所示:
d <- data.frame(
textColumn = c(
"Apple CEO reports positive growth in Iphone sales",
"Apple's quarterly results are expected to beat that of Intel's",
"Microsoft is expected to release a new product which rivales Apple&
在数据表的公司名称列中,一些公司重复使用不同的名称,例如苹果和苹果_Do not call。我只想考虑一个。如何清理这些数据?重复的公司名称对于其他字段具有相同的值
Company Name Volume
Apple 150
Wallmart 190
Apple_Do Not Call 150
Sapient 450
Apple inc. 150
如果你仔细查看这些数据,你会发现苹果公司不断以不同的名字出现。我只想考虑1个值,即Apple
我想按公司名称计算金额,但公司名称的格式通常不同。例如Apple Inc有时是Apple computer,Apple Inc.也..我不知道我该怎么处理"header“
我的文件格式是CSV。
company amount
a 20
b 10
A' 30
bb 20
我想这样做:
line = readline() if line=='':
break
if 'Apple' in line:
sum(amount)
我有两张桌子,公司和company_name。company包含列:company_id(主键)和company_name,而company_name包含列:company_id(公司表中的外键)、company_name和is_proper。目前,公司表中填充了几条记录,但我希望只保留出现在表中的company_names和is_proper = 1的记录。
示例公司表
company_id company_name
1 Apple
2 Apple Inc.
3 Fcebook
4 F
如果我有一个充满了多次出现的公司的数据框架,因为这些数据涵盖了几年,我如何找到每个公司在不同年份之间的平衡呢? 示例 name year balance
google 2015 100000
apple 2015 10000
dominos 2015 100
google 2016 1000000
apple 2016 1000
dominos 2016
我有两个数据处理程序,都是针对公司的,看起来如下:
df1 = pd.DataFrame({'Company':["Apple","Facebook","Google"]})
df2= pd.DataFrame({'Company':["Apple Inc. Common Stock","Facebook Common Stock", "Google Alphabet Inc.","AAON Inc."]})
df1
[Out 6]:
Company
我有这张桌子,上面写着“公司&年份”一栏,答案栏是我想要的。
我需要为公司的每一个开始的年提供一个1,然后在同一家公司每3年一次。用Excel中的公式就可以做到这一点吗?
Firm Year Answer
Nokia 2007 1
Nokia 2008 0
Nokia 2009 0
Nokia 2010 0
Nokia 2011 1
Nokia 2012 0
Nokia 2013
我想联合多个活动记录关系
例如,
apple_companies = Company.where("name like ?","%apple%")
banana_companies = Company.where("name like ?","%banana%")
我想把这两个关系结合起来。
not merge,merge is apple_companies.merge(banana_companies) => Company.where("name like?=> name like ?","
使用SQL,我如何为每个公司分组的日期赋值?
当前表:
Date Company Employees
2012-04-28 Apple, Inc. 7543
2012-04-27 Apple, Inc. 7510
2012-04-26 Apple, Inc. 7484
2012-04-28 Google, Inc. 11303
2012-04-27 Google, Inc. 11300
2012-04-26 Google, Inc. 11
我正在使用这个代码分组公司和频率计数。然而,返回的结果并没有对公司进行分组。
freq = df.groupby(['company'])['recruitment'].size()
I got some result similar to this.
recruitment
company
Data Co 3
Data Co 8
Apple Co 3
Apple Co 6
我有两个问题:
为什么这群人不把companies?When和放在一起freq.col
我有一张有各自地址的公司的桌子(MySQL InnoDB)。一家公司为it城市的客户服务。在此基础上,我包括了一个列,用于设置公司可以服务的其他地区(州),以及如果该公司为全国服务的话,则设置其他专栏:
id State City Street Name OtherRegions serveCountry
----------------------------------------------------------------------------------------
1 CA Los Angeles
如何将多个CSV文件按列合并为一个文件?我记录的是,比方说,从网页上抓取的公司的图表位置。只有第一个文件有两列,分别是位置1到100,第二列包含公司名称。所有其他文件只有一列;仅包含公司名称。现在,我想将它们合并,如下所述。首选Mac/Linux解决方案。我可以写一些JavaScript,但不是我的强项。
1.csv
position,name
1,microsoft
2,apple
3,google
和其他各种文件,以它们的日期命名,看起来像这样:
2.csv
name
microsoft
apple
google
3.csv
name
apple
microsoft
google
合并后的
我有以下数据集:
Date ID Company
Jan05 1 Coca-Cola
Jan05 2 Coca-Cola
Jan05 3 Coca-Cola
Jan05 4 Apple
Jan05 5 Apple
Jan05 6 Apple
Jan05 7 Microsoft
Feb05 1 McDonald
Feb05 2 McDonald
考虑以下数组:
$companies = array(
'apple' => 'AAPL',
'baxter' => 'BAX'
);
和以下字符串:
apple at the beginning of string with bapple
here a string with apple in the middle
baxter baxter on first and second place mybaxters
and finally, baxter
我使用以下循环将公司名称替换为它们各自的代码:
fore
我正在尝试根据组ID逐行填充NaN值。 我尝试使用fillNA,使用向前和向后填充选项,但fillNA函数不会逐行填充数据帧。此外,我希望在填充NaN值之前确保公司匹配。在本例中,使用正向填充将导致公司"Pear“填充来自公司"Banana”的数据。 appended = appended.sort_values(by=['Company','Intro'],na_position='last')
appended = appended.reset_index(drop=True)
for i in appended.inde
如果(1)上面的公司是同一家公司,并且(2)该类型是家,则源是访问。对数据进行排序。但是,依赖于上一行意味着,如果中间有行,则访问不会被分类:在这里,第1行正在进入第2行,即访问。只要时间上的差异在5分钟内,我如何分类这些访问?
source datetime location type start company
0 10:00 london home 1 apple
1 10:03 unknown tesla
2 10:04 France
SELECT (SELECT GROUP_CONCAT(companyName)FROM company WHERE id IN (27,38)) AS companyName, t.*
FROM Test t
它会像这样返回输出
>Apple, Sony
但如果我把id作为全字符串传递,
SELECT (SELECT GROUP_CONCAT(companyName)
FROM company WHERE id IN ("27,38")) AS companyName, t.*
FROM Test t
所以它只返回第一个公司名称,所以输出如
我目前正在使用python中的一个数据库,我正在使用pandas。我当前的数据库如下所示:
Name Approved
Google true
Facebook true
Apple false
Trulia true
Google false
Trulia true
我只想计算每家公司的‘true’。所以我的out看起来像这样:
Name Approved
Google 1
Facebook 1
Apple 0
Trulia 2
这是我当前的代码:
data.groupby(['Name'])[[
我有一个dataframe,其中有一列包含公司名称: ID NAME dict_key
1 APPLE NaN
2 GOOGLE Nan
3 IBM NaN
4 HP NaN
5 SAMSUNG NaN ..。 并且我有一个dict键和多个相应键的值,例如 {1000:['APPLE INC', 'APPLE COMPUTER INC', 'AOPLE INC', 'APPLE'], 1001:['GOOGLE INC',
请看下面关于“苹果”的50条推文。我已经手工标记了关于苹果公司的正面匹配。它们在下面被标记为1。
下面是几行代码:
1|“@chrisgilmer: Apple targets big business with new iOS 7 features http://bit.ly/15F9JeF ”. Finally.. A corp iTunes account!
0|“@Zach_Paull: When did green skittles change from lime to green apple? #notafan” @Skittles
1|@dtfcdvEric: @Maroney
我一直在用头撞这件事。我想我快到了。(Oracle、SQL)
我有一个如下所示的表格。
Company Code
Apple A
Google A
Microsoft B
Apple C
Google B
Microsoft B
Apple C
Google C
Microsoft B
每个公司可以解析为多个代码。我想要做的是创建一条SQL语句,为每个公司提供出现频率最高的公司的代码。所以在我的例子中,我会得到
Apple C
Google <nothing since there's no cl
我有6个数据表。我有两个不同的查询,这两个查询会生成这样的表
| PERCENTAGE | COMPANY | TYPE |
(所有表中的公司总是相同的,唯一变化的是PERCENTAGE和type)。每个查询都会获取两种不同类型之一的给定公司的total_percentage。
例如:
Query 1 result:
| PERCENTAGE | COMPANY | TYPE |
0.0213 | Apple | Phones
0.3452 | Microsoft | Phones
Query 2:
|PERCENTAGE | COMPANY | TYPE |
0.4243 | Apple
我有三张桌子如下:
documents (id, content)
words (id, word)
word_document (word_id, document_id, count)
word表包含所有文档中发生的所有单词,word_document将一个单词与文档和该文档中该单词的计数关联起来。
我想写一个查询来搜索两个单词,并且只返回文档中两个单词之和排序为两个单词的文档。
例如
DocA: green apple is not blue
DocB: blue apple is blue
DocC: red apple is red
现在,苹果公司()、苹果公司()和苹果公司(
闪亮的交互性不起作用,图表显示所有的公司在一起,我需要的只是选定的公司。例如:苹果和微软,或者苹果,微软和谷歌。
电流输出:
数据列=日期,close_price,公司
#Uploading data in R
library(shiny)
library(data.table)
library(ggmap)
#Changing date format
stock$date <- as.Date(stock$date, format = "%d/%m/%Y")
#Setting up Shiny
ui <- fluidPage(
titlePan